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(57) Das Verfahren zur Datenermlttlung und -aufbereitung 
in Infornnationsnetzwerken, insbesondere in regionalen 
und globalen Datennetzen, wie dem INTERNET, ermog- 
licht eine zielgenaue, zeitsparende Recherche nach belie- 
bigen Informationen. 

Durch die Verwendung intelligenter, kreativer Suchma- 
schinen wird die Wahrscheinlichkeit fur die Ermittlung re- 
levanter Datensatze signifikant erhoht. Die Ubertragung 
redundanter, identischer oder ahnlicher Datensatze wird 
vermieden. 

Durch die Lernfahigkeit der kreativen Suchmaschinen 

wird die Recherchengenauigkeit permanent erhoht und 

der Aufwand minimiert. Ebenso besteht die Moglichkeit, 

durch die Verwendung mehrerer, in Konkurrenz oder in 

Kooperation arbeitender Master-Such maschinen dieTref- 
• ferwahrscheinlichkeit der Recherche zu erhohen oder den 
I zeitlichen Recherchenaufwand zu senken. 
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Beschreibung 

Die Erfindung betrifft ein Verfahren zur Datenermittlung und -aufbereitung in Informationsnetzwerken, insbesondere 
in regionalen und globalen Datennetzen, wie dem INTERNET. 
5 Fiir die selektive Suche von Daten stehen denn Benutzer regionaler oder globaler Rechnerverbundsysteme sogenannte 
Suchinaschinen zur Verfugung. Dabei handell es sich um leistungsfahige Netzwerkcompuier, auf denen Recherchepro- 
gramme verarbeitet werden. Der Ablauf einer konventionellen Recherche geht dabei wie folgt vonstatten: 

Der Benutzer gibt ein relevantes Suchwort (Deskriptor) uberdie Eingabeeinrichtungen (Tastaiur, Maus, Spracherken- 
nungssystem) seines Computers ein, nachdem er den Zugang zu einer beliebigen Suchmaschine innerhalb des Intorma- 
10 tionsnetzes hergestellt hat. Nachdem die Rechercheanfrage als In formation sblock an die Suchmaschine tibertragen 
wurde, fuhrt diese eine routinemaBige Abfrage aller mit ihr in Verbindung stehender Informationsspeicher (Server) 
durch. Nach Beendigung der Abfrage kann der Benutzer alle ennittelten Datensatze, in denen das relevante Suchwort 
(Deskriptor) gefunden wurde, in den Arheit.s- oder Masse.speicher seines Computers laden (kopieren). 

Nachteil dieser Losung ist, daB bei diesem Verfahren verhaltnismaBig groBe Datenmengen ermittelt und ubertragen 
15 werden, die sich bei anschlieBender Prufung als nicht relevant herausstellen. Ebenso kann nicht verhindert werden, daB 
auf verschiedenen Servern identische Datensatze ermittelt und an den Benutzer ubertragen werden. Auch hier stellt sich 
erst im Ergebnis einer manuellen Sichtung der ermittelten Informationen heraus, daB ein relativ hoher Anteil der ennit- 
telten Informationen redundant erfaBt werden ist. 

Neben der unerwunschten Informationsflut, die eine Auswertung brauchbarer Informationen erschwert, entstehen bei 
20 diesem Verfahren auch venneidbare Mehrkosten durch den langeren Aufenthalt im (gebuhrenpflichtigen) Netz bzw. 
beim Zugriff auf kostenpflichtige Datenbanken. 

Aufgabe der Erfindung ist es, die Nachteile des bekannten Standes der Technik zu eliminieren und ein Verfahren zu 
entwickeln, daB dem Informationssuchenden eine iiberschaubare Anzahl relevanter Datensatze selektiv bereitstellt. 
Erfindung sgemaB wird die Aufgabe durch die Merkmale des kennzeichnenden Teils des Hauptanspruches gelost. Eine 
25 alternative Losung der Aufgabe wird im Nebenanspruch 2 vorgeschlagen. Vorzugsweise Weiterbildungen sind in den 
Unleranspriichen dargelegt. 

Dor Informationssuchcndc gibt - wic bishcr - cin rclcvantcs Rcchcrchcsuchwort (Deskriptor D) iibcr die Eingabccin- 
richtung seines Computers ein. AnschlieBend wird die Verbindung mit einer Suchmaschine hergestellt, auf der ein adap- 
tives Rechercheprogramm abgearbeitet wird. Das Verfahren zur Inform ationsermittlung und -aufbereitung weist fol- 
30 gende Teilschritte auf: 

Nachdem die Suchmaschine SM die Korrektheit und Zulassigkeit des Suchbegriffes (Deskriptor) uberpriift hat (Recht- 
schreibpriifung, grammatikalische Prufung, ggf. Hinweis an den Nutzer auf synonyme Bezeichnungen — Thesaurus) 
werden alle, mit der Suchmaschine SM in Verbindung stehenden Server Si. . .S^ nach diesem Deskriptor abgefragt. Von 
alien, auf den unterschiedlichen Servern ermittelten Datensatzen DS werden Bruchstiicke (Blocke) mit Angabe der 

35 Fundstelle in den Arbeitsspeicher AS der Suchmaschine SM geladen. Dort wird iiberpruft, ob redundante Datensatze 
D^rcd' gekennzeichnet durch identische Strings (Wort- und/oder Zeichenfolgen), z. B, im Tltel einer wissenschaftlichen 
Publikation, einer Paten tschri ft etc. vorhanden sind. Diese redundanten Datensatze DS^a werden nachfolgend geloscht. 

Parallel dazu wird die Haufung der auf den einzelnen Servern S]. . .Sn ermittelten Datensatze DS verglichen und die 
Gesamtzahl n^^^ der ermittelten, relevanten Datensatze DS^^i (nach Eliminierung redundanter Datensatze) berechnet. 

40 Ist die Anzahl der ermittelten Datensatze n^srel l^^^einer als ein wahlbares, vom Benutzer oder vom Recherchepro- 
gramm vorgebbares Maximum nQSj^a^^ (z. B. 20 Datensatze), so wird die Recherche abgebrochen und die ermittelten Da- 
tensatze werden auf den Arbeits- oder Massespeicher des Computers des Benutzers ubertragen. 

Ist demgegeniiber die ermittelte Anzahl relevanter Datensatze n^^^^^i groBer als dieser Grenzwert, so wird ein weiterer 
Recherchesuchlauf durchgefi.ihrt. 

45 Dazu wird durch den Nutzer ein weiteres relevantes Suchwort vorgegeben. Es besteht aber auch die Moglichkeit^ dem 
Benutzer durch das adaptive Rechercheprogramm alternative Vorschiage fiir weitere Deskriptoren zu unterbreiten, mit 
denen eine Einschrankung und Prazisierung der Recherchestraiegie ermoglicht wird. So konnen bei der Suche nach ei- 
nem technisch determinierten Schlagwort, z. B. "Kraftfahrzeug", als erganzende Deskriptoren Suchworter vorgegeben 
werden, durch die die Zweckbindung des Kraftfahrzeuges naher bestimmt wird (zum Beispiel Personenkraftwagen, 

50 Nutzkraftwagen, etc.). 

Nachfolgend wird der zweite Deskriptor mit dem Deskriptor des ersten Suchlaufes additiv verbunden und der zweite 
Recherchendurchlauf gestartet. Dabei wird gegeniiber dem ersten Recherchendurchlauf die Reihenfolge, in der die Ser- 
ver Si bis Sf, abgefragt werden, nach einem Prioritatsprinzip ausgewahlt. Die Priori tatsbesti mm ung berucksichtigt die 
Haufung ermittelter, relevanter Datensatze DS^b die auf den einzelnen Servern im Ergebnis des ersten Recherchen- 

55 durchlaufes ermittelt wurden. Beim nachfolgenden, zweiten Recherchendurchlauf wird zunachst der Server Sj angefah- 
ren, auf dem die meisten relevanten Datensatze (bereinigt von redundanten Datensatzen) gespei chert sind. Mit absteigen- 
der Haufung (und abnehmenderTrefferwahrscheinlichkeit) werden zunachst die weiteren Server abgefragt, auf denen im 
ersten Recherchendurchlauf relevante Datensatze ermittelt wurden. 

Nachfolgend werden Bruchstiicke (Blocke) aller ermittelten, relevanten Datensatze in den Arbeitsspeicher der Such- 

60 maschine ubertragen und die Dat.eninhalte auf Tdentitat (oder Ahnlichkeit) iiherprijft. 

Redundante Datensatze werden wiederum entfernt, um die Datenmenge zu begrenzen. Neben der Identitatspriifung 
kann eine Ahnlichkeitspriifung der ermittelten Datensatze vorgenommen werden. Dabei werden Datensatze, zum Bei- 
spiel Titel von PubUkationen, als ahnlich angesehen, wenn der Verfasser und das Publikationsjahr gleich sind. Ist der Au- 
tor gleich, das Erscheinungsjahr der Publikationen jedoch verschieden, so wahlt das Programm den prioritatsjiingeren 

65 Datensatz aus. 

Nachfolgend wird die Gesamtzahl der ermittelten, relevanten (das heiBt von identischen oder ahnhchen Informatio- 
nen) bereinigten Datensatze und deren Haufigkeitsverteilung auf den einzelnen angefahrenen Servern dargestellt. Ist die 
(jesamtzahl der ermittelten, relevanten Datensatze kleiner als ein voigegebener Maximal wert , so wird die Recherche ab- 
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gebrochen und die, auf den einzelnen Servem ermittellen, relevanten Datensatze werden auf den Arbeils- oder Masse- 
speicher des Computers des Benutzers uberlragen. 

Isl die Anzahl der enniLtelten Datensatze nur geringfugig groBer als der vorgegebene Maximalwert, so wird der Be- 
rt utzer gefragt, ob er die Anzahl der Recherchenergebnisse durch einen weiteren Recherchesuchlauf mit einem gesonder- 
ten Deskriptor einschranken will oder ob er die Recherche abbrechen niochle. 5 

1st die Anzahl der ermittelten, relevanten Datensatze demgegeniiber wesentlich groBer als der gewahlte Maxinnalwert, 
so wird dem Benutzer durch das adaptive Rechercheprogramm ein weiterer Deskriptor voigeschlagen. Ebenso besteht 
die Moglichkeit, daB der Benutzer einen Deskriptor seiner Wahl dem nachsten Recherchesuchlauf zugrundelegt. So 
konnte bei der vorgehend genannten Recherche eine weitere Spezifikation des Recherchenzieles darin bestehen, daB die 
additiv verbundene Deskriptorenkette "Kraftfahrzeug" und "Nuizkraftfahrzeug" erganzt wird mit dem Suchwon "Bau" lo 
oder "StraBenbau". 

Die Auswahl der vom Recherchenprogramm vorgeschlagenen Deskriptoren kann sich - entsprechend dem Ziel der 
Recherche - an uingangs- oder fachsprachlichen Aspekten orientieren. So kann eine technisch orientierte Recherche, ins- 
besondere eine Recherche nach relevanten Schutzrechten, unter Venvendung international ublicher Klassifikationsein- 
teilungen (z. B. Internationale Patentklassifikation IPC) vorgenonimen werden. 15 

In der vorstehend beschriebenen Weise werden iterativ bis zu n-Recherchensuchlaufe durchgefuhrt, bis die ge- 
wunschte, maximale Anzahl relevanter Datensatze n^grnax erreicht bzw. unterschritten wird. Wird im letzten Recher- 
chendurchlauf eine Anzahl relevanter Datensatze ermittelt, die sehr klein im Vergleich zur vorgegebenen, maximal zu- 
lassigen Anzahl der Datensatze ist, so erhalt der Benutzer den Hinweis, daB durch diesen letzten Recherchesuchlauf das 
Recherchenergebnis zu stark eingegrenzt worden ist. 20 

Dem Benutzer wird die Moglichkeit geboten, zu den Ei^ebnissen des davorliegenden Recherchensuchlaufes zuriick- 
zukehren und die Recherche an dieser S telle abzubrechen oder mit einem neuen, geanderten Deskriptor einen weiteren 
Recherchedurchlauf zu siarten. 

Eine weitere, vorteilhafte Moglichkeit zur Erhohung der Trefferwahrscheinlichkeit einer Recherche bestehi darin, daB 
eine Korrelation zwischen dem Datenvolumen eines Datensatzes und der Haufigkeit des Auftretens des jeweils gesuch- 25 
ten Deskriptors innerhalb dieses Datensatzes (Fundstelle) vorgenonimen wird. 

Bctragt bcispiclswcisc das Datenvolumen cincs ermittelten Datensatzes 10,0 Kilobyte (ca. 5 Scitcn DIN A4) und 
wurde innerhalb dieses Datensatzes ein gesuchter Deskriptor (z. B. das Such wort "Nutzkraftfahrzeug") nur einmal ermit- 
telt, so ist die Wahrscheinlichkeit hoch, daB in dem ermittelten Datensatz lediglich peripher uber "Nutzkraftfahrzeuge" 
berichtet wird. 30 

Die Infonnationsdichte Ij^ als Quotient aus Anzahl der ermittelten (identischen) Deskriptoren innerhalb eines Daten- 
satzes und dem Datenvolumen (Information sumfang, Anzahl der Seiten, etc.) dieses Datensatzes ist ein Indikator fur die 
Wahrscheinlichkeit P^ei, einen relevanten Datensatz DS^^i zu ermitteln. 

Durch das Verfahren zur D ate nermitt lung und -aufbereitung in Informationsnetzwerken wird so mit eine Optiniierung 
von Informationsrecherchen (selektive Sachrecherchen, Uberblicksrecherchen, etc.) erreicht. 35 

Eine alternative Moglichkeit zur Ermittlung einer akzeptablen Anzahl relevanter Datensatze DSj^i bei einer Informa- 
tionsrecherche geht von der Nutzung mehreren vorhergehend beschriebener "kreativer" Suchmaschinen aus. 

Der Informadonssuchende gibt uber eine Eingabeeinrichtung seines Computers ein ihn interessierendes Recherche- 
such wort (Wort, Siring, Zeichenkette, etc.) ein. 

Der Computer steUt iiber die vorhandenen Kommunikadonswege die Verbindung mit einer Suchmaschine SMj^^ster 
innerhalb des Netzwerkes her Diese Suchmaschine stelli Ihrerseits Verbindungen mit n weiteren Suchmaschinen 
SMgiayg 1 , . SMgigyg „ innerhalb der Netzstruktur her. Dabei wird die Recherchenanfrage an alle angewahlten Suchma- 
schinen weiiergeleitet. Jede dieser n Suchmaschinen steht Ihrerseits mit einer Anzahl von Servem (Sj |, S^ 2^ • • • Sj j,.2' 
^i.n) Verbindung. 

Im Ergebnis dieses ersten dezentralen Recherchensuchlaufes ermitteln alle n, im Slave-Modus arbeitenden, kreativen 45 
Suchmaschinen SMsia^g | . . SMsia^e^ eine Anzahl von Datensatzen, in denen der gewiinschte Suchbegriff enthalten 
ist. Jede der Suchmaschinen SMsia^gj registriert nach AbschluB dieses ersten Recherchensuchlaufes, auf welchem der 
angewahlten Server Sj sie welche Anzahl von Datensatzen ermittelt hat, Diese Ergebnisse werden auf einem Speicher SP 
der jeweiligen, im Slave-Modus arbeitenden Suchmaschine SMsi^vg . j abgelegi. 

In einem zweiten Verfahrensschritt erfolgt ein Vergleich der von den einzelnen Slave-Suchmaschinen SMsia^g j .... 50 
^^Slave.n ermittelten Datensatze untereinander. Dabei werden wiederum redundante Datensatze ennittelt und ausge- 
schieden. 

Nachfolgend wird die Haufigkeit der auf den einzelnen Slave-Suchmaschinen SMgiavci • • • • ^Msig^e.n ennit telten, re- 
levanten Datensatze DSrei verglichen und die Gesamtzahl npe^.rei der ermittelten, relevanten Datensatze DS^i berechnet. 

1st die Anzahl der ennittelten Datensatze nge^^i groBer als ein vorgegebener oder vorgebbarer Grenzwert, so wird ein 55 
zweiter Recherchensuchlauf mit einem erganzenden Deskriptor durchgefuhrt. 

Die Reihenfolge, in der beim zweiten Recherchendurchlauf die Slave-Suchmaschinen SMsig^g .... SMsia^g^ von 
der Master-Suchmaschine SMj^^^ter angefahren werden, richtet sich nach der Ilaufung der, beim ersten Recherchensuch- 
lauf iiber die einzelnen Slave-Suchmaschinen SMgi^y^ j . . .. SMsi^y^ j ermittelten, relevanten Datensatze DS^j. Wegen 
der hoheren Trefferwahrscheinlichkeit wird so zunachst die Slave-Suchmaschine SM^j^^^ ^ angefahren, auf der beim er- 60 
sten Recherchensuchlauf die meisten relevanten Datensatze DSrei gefunden wurden. Wurde durch mehrere Slave-Such- 
maschinen eine gleiche Anzahl Uq^^i relevanter Datensatze ennittelt, so wird als weiteres Auswahlkriterium die Infor- 
mationsdichte I^ ausgewahlt und danach die Reihenfolge der anzufahrenden Slave-Suchmaschinen bestimmt. 

Wird bei diesem zweiten Recherchensuchlauf bereits nach der Abfrage der g-ten Slave-Suchmaschine SMsigy^^ (wo- 
bei g<i) eine Anzahl relevanter Datensatze DSj^i ermittelt, die oberhalb des vorgegebenen Grenzwenes liegt, so wi'rd die 65 
Recherche abgebrochen. Gleichzeitig wird vermerkt, welche Slave-Suchmaschinen an diesem Recherchensuchlauf nicht 
beieiUgt waren, 

Durch diese iterative Abfrage wird die Wahrscheinhchkeii, relevante Datensatze bei minimiertem Suchaufwand zu er- 
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mitteln, signifikant verbessert. Ein weiterer Vorteil der Einbindung einer Anzahl von n Slave-Suchmaschinen in eine Re- 
cherche beslehtdarin, daB die Ergebnisse einzelner Recherchelaufe temporar oder dauerhafi auf einem "Inhaltsspeicher" 
der beteiligten Master- oder Slave-Suchmaschine abgelegt werden konnen. Dieser "Inhaltsspeicher*' hat vorzugsweise 
die Struktur einer Datenbank. Dabei wird in der Datenbank die jeweihge Recherchenanfrage (Suchwort, Deskriptor, 
5 Zeichnung, Fonnel, etc.) und die Anzahl der zum Rechenchenzeitpunkt temporar iiber diese Suchraaschine(n) in den an- 
geschlossenen n Servem S j . . . Sp ermittelten, relevanten Datensatze eingetragen. 

Damitbestehtdie MogUchkeit, bei einer spaleren Recherche nach einem identischen oder begrifflich ahnhchen Such- 
wort (Deskriptor) qualifiziert auf die Server zuzugreifen, auf denen mil hoherer Wahrscheinlichkeil relevante Datensatze 
abgelegt sind. Wird bei einer derartigen, zeitlich versetzen Recherche (z. B. bei einer nochmaligen Suche eines anderen 
to Nutzers nach dem Deskriptor "Kxafifahrzeug") festgestelli, dafi sich die Haufigkeitsveneilung der ermittelten, relevanten 
Datensatze auf den angewahlten Servem geandert hat, so wird diese Drifterscheinung eben falls in der Datenbank "In- 
haltsangabe" der jeweiligen Master- und/oder Slave-Suchmaschine gespeichert. Damil wird sichergestellt, daB bei jedem 
weiteren, nachfolgenden Recherchensuchl auf nach einem identischen oder inhaltsahnlichen Suchwort (Deskriptor) pri- 
mar die Quellen (Server) angewahlt werden, die die hochste Trefferwahrscheinlichkeit fiir die Ennittlung relevanter Da- 
is tensatze DSrei aufweisen. 

Damit stellt die Datenbank "Inhaltsangabe" ein selbstlemendes System dar. So wird bei einer neuen Recherche zu- 
nachst iiberpruft, ob das vorgegebene Suchwon bereits identisch in der Datenbank "Inhaltsangabe" enthalten ist. 1st das 
nicht der Fall, so wird uberpruft, ob bereits Recherchen nach ahnhchen, inhaltsgleichen Begriffen durchgefuhrt worden 
sind. Ist das der Fall, d. h. wurde beispielsweise iiber diese Master- oder Slave-Suchmaschine bereits eine Recherche 
20 nach dem Begriff "Kraftfahrzeug" (anstelle des ursprunglich gewahlten Suchbegriffes "Nutzkraftfahrzeug") vorgenom- 
men, so wird die Suche nach dem neuen Deskriptor "Nutzkraftfahrzeug" wegen der hoheren Trefferwahrscheinlichkeit 
zunachst iiber die Slave-Suchmaschinen in den Servem durchgefuhrt, in denen beim letzten Recherchensuchlauf die 
groBte Anzahl relevanter Datensatze (gegebenenfalls unter Berucksichtigung der Informationsdichte dieser Datensatze) 
ermittelt wurde, 

25 Die Bewertung der Trefferwahrscheinlichkeit der in Konkurrenz arbeitenden Slave-Suchmaschinen wird dabei durch 
die Master-Suchmaschine vorgenoinmen. 

Um den Zcitaufwand cincr Informationsrcchcrchc wcitcr zu minimicrcn, bcstcht die vortcilhaftc Moglichkcit, die Rc- 
cherchefrage parallel an mehrere Master-Suchmaschinen zu leiten, die im Netzwerk autonom arbeiten oder miteinander 
verbunden sind. Da die Master-Suchmaschinen ihrerseits jeweils mil einer Anzahl i . . , k unterschiedhcher Server kom- 

30 munizieren, werden Rechercheergebnisse ennittelt, die mit hoher Wahrscheinlichkeil reprasentativ fiir die untersuchte 
Grundgesamtheit von Informationsquellen (Servem) sind. 

In einer vorteilhaften Ausgestaltung des Verfahrens zur Datenermittlung und -aufbereitung in Informationsnetzwerken 
werden die intelligenten, kreativen Suchmaschinen SMi^/ia^tei. iiber Kommunikationswege untereinander als neuronales 
Netz verbunden. Bei jeder Recherche werden dabei die gewonnenen Ergebnisse iiber die Haufigkeit ermittelter relevan- 

35 ter Datensatze, deren Informationsgehalt (Infonnationsdichte I^^) und somit die Trefferwahrscheinlichkeit auf den ange- 
fahrenen Servem protokolliert und auf ausgewahhen oder auf alien, im Netz befindlichen Suchmaschinen SMj^yj^i^r ab- 
gelegt. Durch diesen informationeUen SelbstlernprozeB der Suchmaschinen SM>^4as,er wird die Qualitat und Ausbeute der 
Recherchen systematisch verbessert und der zeitliche und finanzielle Recherchenaufwand signifikant gesenkt. 
Die Erfindung wird nachfolgend an einem Ausfiihrungsbeispiel naher beschrieben. 

40 Ein Nutzer des INTERNET in Belgien mochte sich eine Ubersicht uber alle Restaurants der Hansestadt Hamburg ver- 
schaffen. 

Der Infomiationssuchende gibt uber die Tastatur seines Computers als Suchstring "Restaurant Hamburg", ein. Die 
Obergrenze der maximal zu ermitielnden relevanten Datensatze DS^^i (^a^ wurde vom Informationssuchenden aus Ko- 
stengriinden auf 1 .000 begrenzt. 

45 Nachfolgend wird die Verbindung des Computers mit einer Suchmaschine SMj^^^fgr innerhalb des Netzwerkes herge- 
stellt. Diese Suchmaschine SMA^a^jgr korrespondiert standig mit 10 Suchmaschinen SMsiave.i • - • ^'Msiave.io- Such- 
maschine SMj^asier wahlt zufallig eine Slave-Suchmaschine aus. Die im vorliegenden Fall ausgewahlte Suchmaschine 
SMsLa^e 5 korrespondiert mit 26.414 Servem weltweit. 

Die Suchmaschine SMsLa^^.G sucht nunmehr in alien, mit ihr verbunden Servem nach den kummulativ auftretenden 

50 Informationen "Restaurant" und "Hamburg". Als Ergebnis wird auf dem Display des Informationssuchenden die Ge- 
samtzahl der ermittelten Datensatze n^^^ aufgezeigt. Die ermittelte Anzahl von 10.012 Datensatzen umfaBt alle nachge- 
wiesenen Gaststatten in Belgien, den Niederlanden und Luxemburg mit der besonderen Etablissemenlbezeichnung 
"Hamburg". 

Da dieses Recherchenergebnis nicht den Vorstellungen des Informationssuchenden entspricht, wird die Recherche an 
55 dieser Stelle nicht abgebrochen, sondern die Suchmaschine SMj^^ster wahlt aus den 10, mit ihr verbundenen Suchma- 
schinen SMsiayc I , . . SMsia^gjQ nach dem Zufallsprinzip weitere Suchmaschinen aus, an die die Recherchenfrage wei- 
tergeleitei wird. AnschlieBend werden die Recherchenergebnisse iibemiittelt. So wurden unter Inanspruchnahme der 
Suchmaschine SMsig^g 2 insgesamt 2.444 Datensatze gefunden, in denen die Begriffe "Restaurant" und "Hamburg" in 
den USA, Kanada und Deutschland gefunden wurden. 
60 Die Suchmaschine SMsia^^ | ennittehe 1 .436 Datensatze, in denen sich ein Hinweis auf die SuchbegriflTe "Restaurant " 
und "Hamburg" innerhalb der Europaischen Union und in Japan findet. 

Die Suchmaschine SMsi^yg 4 liefert als Ergebnis 795 Datensatze, in denen Restaurants mit der Geschaftsbezeichnung 
"Hamburg" innerhalb der BundesrepubUk Deutschland ermittelt wurden. 

Die Suchmaschine SMsiave.9 findet bei der analogen Recherche in den, mit ihr verbundenen Servem insgesamt 1.214 
65 Datensatze von Restaurants in Deutschland und Danemark. 

Die Suchmaschine SMsiavc.lO^™ill^^^'"sgesamt7.117 Restaurants in Frankreich, Deutschland und den Niederlanden 
mit der besonderen Geschaftsbezeichnung "Hamburg". 

Die Suchmaschine SMsiav^.s findet 402 Datensatze von gleichnamigen Restaurants in der Bundesrepublik. 
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Die Suchmaschine SMsia^g 3 ermittelt 7.212 Gaststatten in den USA, Kanada, Mexiko, GroBbritannien, Frankreich, 
Italien und Deutschland. 

Die Suchmaschine SMsi^yg 7 ermittelt 222 Datensatze, die auf Restaurants mit der besonderen Geschaftsbezeichnung 
"Hamburg" in den Vereinigten Staaten hinweisen. 

Die Suchmaschine SMsi^y^ ^ findet 9.781 Datensatze mit Hinweisen auf gleichnamige Restaurants in den USA, Au- 5 
stralien und Neuseeland. 

Die Suchmaschine SMsia^e.g eimittelt 2.006 Datensatze mit den Deskriptoren "Restaurant" und "Hamburg" mit Sitz in 
GroBbritannien, den USA, Japan und Siidkorea. 

AnschUeBend lautt eine auiomatische Kreuz- und Autokorrelationsanalyse der sich ini Arbeitsspeicher AS der Such- 
maschine SMj^astej. befindlichen Daten ab. Dabei werden die Datensatze ermittelt, die redundant von zwei oder mehreren to 
Suchmaschinen ermittelt wurden. 

Nach Eliminierung der redundanten Datensatze werden die ermittelten, relevanien Datensatze aufgezeigt. Im vorlie- 
genden Fall werden nur die Datensatze angesprochen, in denen die Deskriptorenkette "Restaurant, Hambut^" in Verbin- 
dung mit "Bundesrepublik Deutschland'' als Resourcenquelle aufgefunden wurden, Relevante Datensatze wurden somit 
nur uber die Suchmaschinen SMgiavg j, SMsia^g 2> ^^Slave.s* ^^Slave.io ermittelt. 15 

Unier Berijcksichtigung der Haufung H(DSj.ei) relevanter Datensatze DS,^| ergibt sich die Rangfolge aus dem Gesamt- 
spektrum der Datensatze DS wie folgt: 



n5.rel = 402 
n4^, = 795 
n9^,= 1.214 
nKtel= 1-436 
n2^l = 2.444 
"10.1^1 = 7.117 
n3.^, = 7.212 



20 



25 



Aufgrund der vorlicgcndcn Obcrgrcnzc der maximal zu crmittclndcn, rclcvantcn Datensatze von n^^imax = 1.000 wer- 
den nur die Ergebnisse der Suchmaschinen SMgia^g 3 und SMsjave.4 weiterverarbeitet. 

Daneben erfolgteine interne Be wertung aller Suchmaschinen, deren Bewertungsergebnisse in der Lernmatrix (Daten- 
bank) der Suchmaschine SMj^j^^^gr abgespeichert wird. In der Reihenfolge von "beste" bis "schlechteste" Suchmaschine 30 
ergibt sich folgende Reihenfolge: 

■ ^ 

SMsiHvc.5, SMsi,vc.4> SMsiave.9. SMsiavc.l. SMsi3vc.2, SMs„vc.lO, SMsi3^,.3, SMgiav^.S, SMgi^v..?, SMs,av..8. 35 

Die Reihenfolge wird als Wertigkeil durch eine Punktbewertung beriicksichtigt. Obwohl die Suchmaschinen SMsia^e.e 
. . . SMjjiaye g keine relevanten Datensatze ennittelt haben, werden diese Suchmaschinen nicht mit der Bewertungskenn- 
ziffer "0" bewertet, da von diesen Suchmaschinen Datenbestande erfaBt wurden, die fiir eine erganzende Recherche noch 
relevant sein konnten. So ist beispielsweise in dem Suchfundus "Europaische Union" Deutschland mittelbar enthalten. 40 

Nachfolgend werden die, von den Suchmaschinen SMsiave.4 ^^siave.5 ennittelten relevanten Datensatze ange- 
zeigt. 

Ist der Inform ationssuchende mit den Ergebnissen der Recherche zufrieden, kann ein Abbruch der Recherche erfol- 
gen. 

SoU die Recherche weiter spezifiziert werden, erfolgt eine weiterer Recherchesuchlauf. Dabei wird mittels der ange- 45 
schlossenen Master- Suchmaschine SMj^g^^^^ und der mit ihr verbundenen Slave-Suchmaschinen nach der Deskriptoren- 
kette ["Stadt" und "Hamburg" und ("Restaurant" oder "Gaststatte")] gesucht. 

Prinzipiell konnte die Recherche auf die Suchmaschinen DSgia^g 4 und DSsi^ve.s beschrankt werden, die im vorigen 
Recherchelauf die best en Ergebnisse erbracht haben. 

Ist der Informationssuchende jedoch an einer hohen Reprasentanz der ermittelten relevanten Datensatze interessiert, 50 
so werden von der Suchmaschine SM^^^^er wiederum alle 10 mit ihr korrespondierenden Suchmaschinen SMgiayg j bis 
^^Slavc.io abgefragt. Dabei werden wegen der hohen, zu erwartenden Trefferwahrscheinlichkeit zunachst die Suchma- 
schine SMsia^e 5, dann die Suchmaschine SMsigy^ 4, usw. angefahren. 

Nach diesem zweiten Recherchenlauf werden alle ermittelten Ergebnisse aufgezeigt: 
Durch die Suchmaschine SMsiayg5 wurden 120 Restaurants in der Stadt Hamburg ermitteh. Die Datensuche uber die 55 
Suchmaschine SMsia^g 4 ergab 140 Nachweise von Restaurants in der Stadt Hamburg. Die Recherche iiber die Suchma- 
schine SMsjgye 2 erbrachie 400 Datensatze von Restaurants in den USA und Deutschland mit dem Namen "Stadt Ham- 
burg". 

Im Ergebnis einer emeuten Auto- und Kreuzkorrelations analyse wurde festgestellt, daB alle Datensatze, die uber die 
Suchmaschine SMsi^yg5 ennittelt wurden, sich in identischer Form im Hestand der Datensatze der Suchmaschine 60 
SMsiave 4 befinden. Alle iibrigen Datensatze sind nicht redundant, Somit bleiben 140 relevante Datensatze iibrig, die dem 
Informalionssuchenden angezeigt und in den Arbeits- bzw. Hauptspeicher seines Rechners kopiert werden, da das Ab- 
bruchkriterium n^^i < nj^i^^^ ^rfullt ist. Die Trefferwahrscheinhchkeit, die von den einzelnen Suchmaschinen SMgiay^ i 
bis SMsiaye )o bei dieser speziellen Recherche erzielt wurde, wird in der Lernmatrix (Daten bank) der Suchmaschine 
^Mj^a^er abgelegt. 65 

Damit besteht die Moglichkeit, daB bei einer identischen oder ahnlichen Recherche eines anderen Informalionssu- 
chenden die Master- Suchmaschine SMj^asig,. zunachst die Suchmaschinen SMsiave.i '^^Slave.m auswahlt, die auf- 
grund der bisherigen Rechercheerfahrungen die hochste Trefferquote relevanter Datensatze erwarten lassen. Kommt es 
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dabei aufgrund der sich standig andernden Datenmengen und -inhalte zu einer Verschiebung der Priorilaisliste (Rang- 
folge der zu erwarlenden Trefferwahrscheinlichkeit), so werden auch diese Anderungen in der Lemmairix der Itreativen 
Suchmaschine SMj^g^^r registriert, so daB eine standige Aktualisierung erfolgt. 

Ebenso werden in der Lemmatrix synonyme Deskriptoren gespeichert, die im Falle einer ergebnislosen Recherche 
5 eine Suche nach inhaltsgteichen Deskriproren ennoglichl. Nach der "Anlernphase", in der der Aufbau der Lemmatrizen 
auf den Mastersuchmaschinen SM>4as,er erfolgt, erhalt der Informationssuchende bei der Kontaktaufnahme mit der intel- 
ligenten Suchmaschine SM;^as,er zu Beginn seiner Sitzung eine Ubersicht der recherchierbaren Fachgebiete, da jede 
Suchmaschine SMj^g^jg^ regelmaBig nicht mit alien Servem weltweit in Verbindung slehen wird. Nachdem der Informa- 
tionssuchende sich fiir ein, ihn interessierendes Fachgebiet entschieden und die Suche nach einem ersten Deskriptor ge- 
10 starlet hat, laufi das Verfahren zur selektiven Informaiionsgewinnung in der vorstehend beschriebenen Weise. 

Durch das selbstlemende System wird der zeitliche und finanzielle Aufwand fur eine selektive Infonnationsrecherche 
signifikant verringert. 

Bezugszeichenliste 

15 

AS Arbeitsspeicher 
D Deskriptor 

I^unzul unzulassiger Deskriptor 

Dgyp synonymer Deskriptor 
20 DS Datensatz 

DS^hni Datensatz mit ahnUchem Deskriptor 

DSred redundanter Datensatz 

DSjei relevanter Datensatz 

H(D) Haufigkeit des Deskriptors D 
25 H(DS) Haufung des Datensatzes DS 

Ij) Infomiationsdichle 

*^DSreI Anzahl relevanter Datcnsatzc 

HQSmax niaximale Anzahl relevanter Datensatze 

"ges.rei Summe relevanter Datensatze 
30 P^i Wahrscheinlichkeit 

S Server 

SM Suchmaschine 
SM^aster Master- Suchmaschine 
SMsia^e Slave- Suchmaschine 
35 SP Speicher 

^DSrel Volumen eines relevanten Datensatzes 

Patentanspriiche 

40 1. Verfahren zur Datenermittlung und -aufbereitung in Informationsnetzwerken, insbesondere in regionalen und 

giobalen Datennetzen, wobei ein relevantes Recherchesuchwort (Deskriptor D) uber die Eingabeeinrichtung eines 
Computers eingegeben und tiber Informationsiibertragungseinrichtungen die Verbindung mit einer Suchmaschine 
SM hergestellt wird, 

wobei der Computer und/oder die Suchmaschine SM die Korrektheit und Zulassigkeit des Deskriptor D uberpriift 
45 und bei unzulassigen Deskriptoren D^^^izui synonyme Deskriptoren D^y^ ermittelt und dem Nutzer vorschlagt, 

daB nachfolgend alle, mit der Suchmaschine SM in Verbindung stehenden Server Sj . . . S^ nach diesem Deskriptor 

abgefragt und von alien, auf den Servem Sj . . . S^, ermittelten Datensatzen DS bruchstuckartige Blocke mit Angabe 

der Fundstelle in den Arbeitsspeicher AS der Suchmaschine SM geladen werden, 

daB nachfolgend redundante Datensatze T^S^^ ehminiert werden, 
50 daB die Haufung H(DSj) der auf den einzelnen Servern Sj . . . S^ ermittelten Datensatze DSi verglichen und die Ge- 

samtzahl Og^^ der ermittelten, relevanten Datensatze DS^ei nach Eliminierung redundanter Datensatze DSrcd 

stimmt wird, 

wobei die Recherche abgebrochen wird und die ermittelten Datensatze auf den Arbeits- oder Massespeicher des 
Computers des Benutzers ubertragen werden, falls die Anzahl der ermittelten Datensatze n^sj^i kleiner als ein wahl- 
55 bares, vom Benutzer oder vom Rechercheprogramm vorgebbares Maximum n^smax is! oder 

dal5 ein weiterer Recherchesuchlauf durchgefuhrt. wird, falls die ermittelte Anzahl relevanter Datensatze n^srel gi*o- 
Ber als dieser Grenzwert ist, 

wobei durch den Nutzer oder das Rechercheprogramm ein weiteres relevantes Suchwort vorgegeben und der zweite 
Recherchendurchlauf gestartet wird, 
60 wobei die Server S] bis S^, von der Suchmaschine in der Reihenfolge der Haufung HCDS^i) der Anzaht der ermit- 

telten, relevanten Datensatze DS^i abgefragt werden, 

daB nachfolgend bruchstuckartige Blocke mil Angabe der Fundstelle in den Arbeitsspeicher AS der Suchmaschine 
SM geladen werden, 

daB nachfolgend redundante Datensatze DSrej geloscht werden, 
65 und die Recherche abgebrochen wird und die ermittelten Datensatze auf den Arbeits- oder Massespeicher des Com- 

puters des Benutzers ubertragen werden, falls die Anzahl der ermittelten Datensatze n^s^i kleiner als ein wahlba- 
res, vom Benutzer oder vom Rechercheprogramm vorgebbares Maximum nQs^^^ ist oder 
daB ein weiterer Recherchesuchlauf durchgefuhrt wird, bis die Forderung n^^^i < = n^sn^aj^ erfiillt ist. 
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2. Verfahren zur Datenermittlung und -aufbereitung in Informationsnetzwerken, insbesondere in regionalen und 
globalen Datennetzen, wobei ein relevanies Recherchesuchwort (Deskriptor D) Liber die Eingabeeinrichtung eines 
Computers eingegeben und iiber Informationsubertragungseinrichtungen die Verbindung mil einer Suchmaschine 
^^Master hergestellt wird, 

die ihrerseits Verbindungen mit n weiteren Suchmaschinen SM^i^^^ j . . SMgi^y^ „ innerhalb des Netzes herstellt, 5 
wobei jede dieser n Suchmaschinen mit einer Anzahl von Servem (Si j, Sj 2. Sj j; . . . ^i,n.i' ^i.n) Verbin- 

dung steht, 

daB nachfolgend alle, mit der Suchmaschine SM in Verbindung stehenden Server (Sj j sj 2. ^im • • • Sj ^.o, Sj „ j, 
S n) nach dem Deskriptor D abget'ragt und von alien, auf den Servern ermittelten Datensatzen DS bruchstiickartige 
Blocke mil Angabe der Fundsielle in den Arbeiisspeicher AS der Suchmaschinen SMsia^ej • • •• SMgia^e ^ geiaden 10 
werden, 

daB nachfolgend redundant e Dalensatze DSr^d eliminiert werden, 

daR auf jeder Suchmaschine SMgi^^^ j gespeichert. wird, auf welchem der angewahUen Server Sj welche Anzahl von 
Datensatzen ermitielt wurde, 

daB nachfolgend ein Vergleich der Anzahl oder der Haufung der von den einzelnen Slave-Suchmaschinen 15 

SMsia^e.] • • •• ^^Msia^e.n ermittellen Datensatze vorgenommen wird, 

wobei redundante Datensatze emiittelt und ausgeschieden werden, 

daB die Anzahl ng^^^i der ennitteUen, relevanten Datensatze DS^i emiittelt wird, 

wobei die Recherche abgebrochen wird und die ermittelten Datensatze auf den Arbeits- oder Massespeicher des 

Computers des Benutzers ubertragen werden, falls die Anzahl der ermittelten Datensatze n^srel k^leiner als ein wahl- 20 

bares, vom Benutzer oder vom Rechercheprogramm vorgebbares Maximum n^sn^gj^ ist oder 

daB ein weiterer Recherchesuchlauf durchgefuhn wird, falls die ermittelte Anzahl relevanter Datensatze n^srei 

6er als dieser Grenzwert ist, 

wobei durch den Nutzer oder das Rechercheprogramm ein weiteres relevantes Suchwort vorgegeben und der zweite 
Recherchendurchlauf gestartet wird, 25 
wobei die Server Si bis Sp von der Suchmaschine in der Reihenfolge der Haufung HCDS^i) der Anzahl der ermit- 
telten, relevanten Datensatze Dsj^i abgcfragt werden, 

daB nachfolgend bruchstuckartige Blocke mit Angabe der Fundstelle in den Arbeiisspeicher AS der Suchmaschine 
SM geiaden werden, 

daB nachfolgend redundante Datensatze DSped geloscht werden, 30 
und die Recherche abgebrochen wird und die ermittelten Datensatze auf den Arbeits- oder Massespeicher des Com- 
puters des Benutzers ubertragen werden, falls die Anzahl der ermittelten Datensatze n^ysr^i kleiner als ein wahlba- 
res, vom Benutzer oder vom Rechercheprogramm vorgebbares Maximum n^s^^ax ist oder 
daB ein weiterer Recherchesuchlauf durchgefuhrt wird, bis die Forderung n^gj^] < = n^s^^a^ erfiillt ist. 

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, 35 
daB eine Korrelation zwischen dem Datenvolumen V^g^i eines relevanten Datensatzes DS^i und der Haufigkeit 
H(Di) des Auftretens des jeweils gesuchten Deskriptors Dj innerhalb dieses Datensatzes vorgenommen und daraus 

die Informationsdichte des relevanten Datensatzes DSj^i besdmmt wird, 

und daB nur von den Datensatzen DS^eij • • • DSj^i „ bruchstuckartige Blocke mit Angabe der Fundstelle in den Ar- 
beiisspeicher AS der Suchmaschine SM geiaden werden, die eine vorgegebene minimale Infonnationsdichte auf- 40 
weisen. 

4. Veifahren nach einem der Anspriiche 1 bis 3, dadurch gekennzeichnet, daB nach der Ubertragung bruchstiickai- 
tiger Blocke aller, auf den Servem S| . • • S^ ermittelten Datensatzen DS in den Arbeiisspeicher AS der Suchma- 
schine SM ahnliche Datensatze DSaij^^j eliminiert werden. 

5. Verfahren nach einem der Anspriiche 1 bis 4, dadurch gekennzeichnet, daB die Eigebnisse der Recherchenabfra- 45 
gen auf einem Inhaltsspeicher der beleihgten Master- und/oder Slave-Suchmaschine abgelegt werden. 

6. Verfahren nach einem der Anspriiche 1 bis 5, dadurch gekennzeichnet, daB die Suchmaschinen SMj^^sje^ ^^^^ 
Kommunikationswege untereinander zu einem neuronalen Netz verbunden werden. 

7. Verfahren nach einem der Anspriiche 2 bis 6, dadurch gekennzeichnet, daB die Recherchefrage parallel an meh- 
rere Masler-Suchmaschinen iiberu-agen wird, die im Informationsnetzwerk autonom arbeilen oder miteinander ver- 50 
bunden sind. 
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